Сбор данных для сегментации клиентов: кластерный анализ
30.10.2022
Как провести сегментацию клиентов с помощью кластерного анализа
Сегментация целевой аудитории не только важная часть маркетинга компании, но и в целом неотъемлемый элемент ведения бизнеса. Этот способ группирование клиентов помогает качественно определить их интересы и потребности, таким образов разработать новый продукт, который увеличит продажи компании и повысит лояльность покупателей.
Сегментацию можно проводить даже в Excel, для более сложной аналитики и большого объема данных можно использовать методы машинного обучения, языки Python, R, Scala, набирающий популярность Julia и другие.
Сегментация клиентской базы с помощью кластерного анализа
Цель кластерного анализа — объединить клиентов в группы по схожим параметрам. Наиболее популярный метод визуализации анализа — иерархическое дерево, каждый последовательный уровень которого — сужающиеся факторы различия.
Мы чаще всего используем одну из разновидностей кластерного анализа — k-means.
Алгоритм анализа следующий.
- Назначить число кластеров k, на которое будут делиться составляющие кластеризации. Число k либо задаётся вручную (удобно определять количество кластеров на основании древовидной кластеризации), либо вычисляется как оптимальное значение с помощью машинного обучения.
- После этого k произвольных точек назначаются центрами кластеров, и измеряется расстояние между назначенными центрами и всеми остальными точками внутри кластеризации. Принадлежность точки к кластеру определяется определением наименьшего расстояния до одного из k-центров.
- Следующий шаг — выбор новых центров, их координаты будут равны среднему значению координат точек внутри кластера. Снова проводится распределение точек по k-кластерам, и операция повторяется до тех пор, пока значения расстояний внутри кластеров не повторятся, это означает, что достигнуто оптимальное деление.
- После того как кластеры сформированы, необходимо понять, по каким параметрам точки в кластерах наиболее схожи, то есть — какие из особенностей поведения пользователей являются систематическими. Один из лайфхаков быстрого их определения — построение боксплотов (ящиков с усами), где значениями выступают показатели каждого клиента по выбранному показателю. Они сразу бросаются в глаза наименьшим размахом значений выборки.
Этот анализ мы проводим на основании большого количества собранных данных, результат используем для проведения таргетированных акций. На практике мы выяснили, что результат сегментации требует тестирования, так как деление на кластеры может кардинально отличаться от месяца к месяцу.
Также данный вид сегментации можно использовать для анализа опросов. Но так как текстовые данные сложно преобразовать в числовые индексы, тем более, если речь идет о тысячах анкетируемых, то мы рекомендуем задавать вопросы формата «Оцените важность/качество/ величину … от 1 до 5».
Подобным образом мы проводили опросы клиентов банка. Первоначально аудитория была разделена на пользователей различных продуктов банка. Для каждого продукта были сформулированы уникальные вопросы по важности факторов выбора, где анкетируемому предлагалось поставить по каждому из факторов оценку от 1 до 5. Часть полученной сегментации представлена ниже:
Владельцы дебетовых карт:
- экономные — наивысшие оценки были поставлены фактору «стоимость годового обслуживания»;
- используют карту для переводов — важен размер комиссии за переводы на карты других банков;
- конформисты — оценили важность факторов «репутация бренда» и «отзывы» на 5 из 5, «стоимость обслуживания» — на 4.
Юридические лица, регулярно совершающие расчетно-кассовые операции:
- мелкие предприниматели — основными факторами выбора являются «стоимость открытия счета», «удобство подключения и пользования интернет-сервисами банка», «выгодные тарифы на обслуживание»;
- юридические лица с большими траншами — наиболее важны установленные лимиты кассовых операций и надёжность и репутация банка.
Автор: Вероника Ильина
Источник: netology.ru